IA et négation : Défaut dangereux du modèle VLM selon l'étude du MIT

Tache aveugle mortelle de l'IA : les modèles de langage visuel ne comprennent pas le « non », selon l'étude

Les modèles de langage visuel (VLM) révolutionnent la technologie, mais une étude du mit révèle leur défaut critique : une incompréhension fondamentale de la négation. Cette faiblesse peut conduire à des erreurs catastrophiques en médecine et dans d'autres applications d'IA à haut risque, car les modèles ignorent des mots comme « non » ou « non », remettant en question leur fiabilité.

Tache aveugle mortelle de l
Photo by: Domagoj Skledar/ arhiva (vlastita)

Le monde de l'intelligence artificielle (IA) progresse constamment, apportant des changements révolutionnaires dans divers secteurs, de la médecine à la fabrication. Parmi les avancées les plus prometteuses figurent les modèles dits visuo-linguistiques (VLM), des systèmes sophistiqués entraînés pour comprendre simultanément les images et le texte. Leur capacité à connecter les informations visuelles avec les descriptions linguistiques ouvre la voie à de nombreuses applications, y compris des outils de diagnostic avancés et des systèmes automatisés de contrôle de la qualité. Cependant, des recherches récentes, y compris celles menées au Massachusetts Institute of Technology (MIT), mettent en lumière une faiblesse critique de ces modèles : leur incapacité à traiter correctement les négations. Des mots comme « non », « ne pas » ou « sans » peuvent conduire à des interprétations totalement erronées, ce qui, dans des domaines d'application sensibles, peut avoir des conséquences catastrophiques.


Défaillances inattendues de l'intelligence artificielle : Le problème de la négation


Imaginez un scénario dans un cabinet de radiologie. Un médecin analyse la radiographie pulmonaire d'un patient. Il remarque un gonflement des tissus, mais observe que le cœur n'est pas hypertrophié. Dans le but d'accélérer le diagnostic et de trouver des cas similaires enregistrés, le radiologue pourrait s'appuyer sur un modèle visuo-linguistique. Si le système d'intelligence artificielle interprète mal la requête et recherche des cas de patients présentant à la fois un tissu gonflé et un cœur hypertrophié, le diagnostic initial pourrait être radicalement différent. En effet, la combinaison d'un tissu gonflé et d'un cœur hypertrophié suggère fortement des problèmes cardiaques, tandis que l'absence d'hypertrophie cardiaque, malgré le tissu gonflé, ouvre la possibilité à toute une série d'autres causes potentielles. Une telle erreur d'interprétation, causée par une incompréhension de la négation, peut orienter le processus de diagnostic dans une direction complètement fausse.


Des chercheurs du MIT, en collaboration avec des collègues d'autres institutions, ont systématiquement étudié ce problème. Leurs résultats indiquent que les modèles visuo-linguistiques montrent une propension marquée aux erreurs dans des situations réelles lorsqu'ils sont confrontés à des mots négatifs. Kumail Alhamoud, doctorant au MIT et auteur principal de l'étude, souligne : « Ces mots négatifs peuvent avoir un impact très significatif, et si nous utilisons ces modèles aveuglément, nous pouvons être confrontés à des conséquences catastrophiques. » Cet avertissement ne se limite pas au diagnostic médical ; il s'étend à toutes les applications à haut risque où les décisions sont basées sur des informations générées par ces systèmes d'IA, des véhicules autonomes au contrôle qualité dans les usines.


Comment fonctionnent les modèles visuo-linguistiques et où se produit le « court-circuit » ?


Les modèles visuo-linguistiques (VLM) sont des systèmes sophistiqués d'apprentissage automatique entraînés sur de vastes ensembles de données contenant des images et leurs descriptions textuelles correspondantes. Grâce au processus d'entraînement, les modèles apprennent à coder à la fois les images et le texte en représentations numériques, appelées plongements vectoriels. L'objectif est que le modèle apprenne à générer des vecteurs similaires pour une image et sa description correspondante. Les VLM utilisent généralement deux encodeurs distincts : un pour le traitement des images et un autre pour le traitement du texte. Ces encodeurs sont optimisés simultanément afin que leurs vecteurs de sortie soient aussi similaires que possible pour les paires image-texte sémantiquement liées.


Le problème de la négation découle de la nature même des données sur lesquelles ces modèles sont entraînés. « Les descriptions d'images expriment principalement ce qui se trouve dans les images – ce sont des étiquettes positives. Et c'est en fait tout le problème. Personne ne regarde une image d'un chien sautant par-dessus une clôture et ne la décrit par 'un chien sautant par-dessus une clôture, sans hélicoptère' », explique Marzyeh Ghassemi, professeure agrégée au MIT et auteure principale de la recherche. Étant donné que les ensembles de données d'entraînement contiennent principalement des descriptions affirmatives, les VLM n'ont tout simplement pas assez d'occasions d'apprendre à reconnaître et à interpréter correctement la négation. Le manque d'exemples où il est explicitement indiqué ce qui *n'est pas* présent dans l'image conduit les modèles à développer une sorte de « biais d'affirmation ».


Tester les limites de la compréhension : Comment les modèles ont échoué au test de la négation


Pour approfondir ce problème, les scientifiques ont conçu deux tâches de référence spécifiques (benchmark tasks) destinées à tester la capacité des VLM à comprendre la négation. Dans la première tâche, ils ont utilisé un grand modèle linguistique (LLM) pour générer de nouvelles descriptions pour des images existantes. Il a été demandé au LLM de réfléchir à des objets connexes qui ne sont *pas présents* sur l'image et de les inclure dans la description. Ils ont ensuite testé les VLM en leur donnant des requêtes avec des mots négatifs, leur demandant de récupérer des images contenant certains objets mais pas d'autres. Par exemple, un modèle pourrait être chargé de trouver des images avec un chat, mais sans chien.


La deuxième tâche consistait en des questions à choix multiples. Le VLM se voyait présenter une image et devait choisir la description la plus appropriée parmi une série d'options très similaires. Ces descriptions ne différaient que par des détails – certaines ajoutaient une référence à un objet n'apparaissant pas sur l'image, tandis que d'autres niaient un objet clairement visible. Les résultats ont été désastreux. Les modèles ont souvent échoué aux deux tâches. Dans les tâches de récupération d'images, les performances ont chuté de près de 25 % lorsque les requêtes contenaient des négations. En répondant à des questions à choix multiples, les meilleurs modèles n'ont atteint qu'une précision d'environ 39 %, tandis que certains modèles avaient des résultats au niveau d'une devinette aléatoire, voire inférieurs.


L'une des principales raisons de ces échecs réside dans le « biais d'affirmation » susmentionné. Les VLM ont tendance à ignorer les mots négatifs et à se concentrer exclusivement sur les objets mentionnés dans la requête, que ces objets soient affirmés ou niés. « Cela ne se produit pas seulement avec des mots comme 'non' et 'ne pas'. Peu importe la façon dont vous exprimez la négation ou l'exclusion, les modèles l'ignoreront tout simplement », souligne Alhamoud. Cette faiblesse s'est avérée constante pour tous les modèles visuo-linguistiques testés, y compris certains des plus connus et des plus utilisés dans l'industrie.


La recherche d'une solution : Nouveaux ensembles de données et orientations futures


Face à ce défi, les chercheurs ne se sont pas contentés d'identifier le problème. Comme première étape vers une solution, ils ont développé de nouveaux ensembles de données qui incluent explicitement des mots négatifs. En utilisant un ensemble de données existant de 10 millions de paires image-description textuelle, ils ont utilisé un grand modèle linguistique pour suggérer des descriptions connexes spécifiant ce qui est exclu des images. Ils ont ainsi obtenu de nouvelles descriptions enrichies de négations. Une attention particulière a été accordée à ce que ces descriptions générées synthétiquement paraissent naturelles, afin d'éviter que les VLM entraînés sur de telles données n'échouent ultérieurement face à des descriptions plus complexes, écrites par des humains, dans le monde réel.


Après avoir créé ces ensembles de données enrichis, l'équipe a procédé à un processus appelé réglage fin (finetuning) des VLM existants. Les résultats ont été encourageants. Le réglage fin avec les nouvelles données a entraîné des améliorations des performances dans tous les segments. La capacité des modèles à récupérer des images sur la base de requêtes avec négation s'est améliorée d'environ 10 %, tandis que le succès dans la tâche de réponse aux questions à choix multiples a augmenté de manière impressionnante de 30 %.


« Notre solution n'est pas parfaite. Nous ne faisons que redécrire des ensembles de données, ce qui est une forme d'augmentation des données. Nous n'avons même pas touché au fonctionnement de ces modèles, mais nous espérons que c'est un signe que c'est un problème soluble et que d'autres peuvent reprendre notre solution et l'améliorer », commente modestement Alhamoud. Néanmoins, ces progrès montrent que le problème n'est pas insurmontable et qu'un enrichissement ciblé des données peut apporter des améliorations significatives.


Implications plus larges et nécessité de prudence


Les résultats de cette recherche, qui seront présentés à la prestigieuse Conférence sur la vision par ordinateur et la reconnaissance des formes (Conference on Computer Vision and Pattern Recognition), ont des implications considérables. Ils servent d'avertissement important aux utilisateurs et aux développeurs de modèles visuo-linguistiques. Si quelque chose d'aussi fondamental que la compréhension de la négation est altéré, cela soulève des questions sur la fiabilité de ces systèmes dans de nombreuses applications existantes. La professeure Ghassemi souligne : « Il s'agit d'un article technique, mais il y a des questions plus larges à considérer. Si quelque chose d'aussi basique que la négation est défaillant, nous ne devrions pas utiliser les grands modèles visuo-linguistiques de la manière dont nous les utilisons actuellement – sans évaluation intensive. »


Il est donc crucial que les utilisateurs potentiels de ces technologies soient conscients de cette lacune, peut-être jusqu'ici insuffisamment perçue. Avant de mettre en œuvre des VLM dans des environnements à haut risque, il est nécessaire d'effectuer des tests approfondis, y compris des scénarios avec des négations, afin d'évaluer leur fiabilité réelle. Ce problème ne se limite pas à des mots spécifiques comme « non » ou « ne pas » ; il concerne la capacité générale des modèles à comprendre l'absence, l'exclusion ou l'opposition.


Les recherches futures pourraient se concentrer sur des modifications plus profondes de l'architecture des modèles eux-mêmes. Une direction possible est d'entraîner les VLM à traiter les informations textuelles et visuelles d'une manière qui leur permettrait de mieux comprendre les nuances sémantiques, y compris la négation. Cela pourrait impliquer le développement de mécanismes d'attention plus sophistiqués (attention mechanisms) ou de nouvelles fonctions de perte (loss functions) qui pénaliseraient explicitement une mauvaise interprétation des négations pendant l'entraînement. En outre, le développement d'ensembles de données supplémentaires, spécialisés et adaptés à des domaines d'application spécifiques tels que les soins de santé, pourrait encore améliorer les performances et la sécurité de ces outils puissants. Si les modèles visuo-linguistiques offrent sans aucun doute un potentiel énorme, garantir leur fonctionnement robuste et fiable, en particulier dans le contexte de la compréhension de la négation, reste un défi majeur pour la communauté scientifique.

Source : Massachusetts Institute of Technology

TROUVEZ UN HÉBERGEMENT À PROXIMITÉ

Heure de création: 7 heures avant

AI Lara Teč

AI Lara Teč est une journaliste IA innovante de notre portail mondial, spécialisée dans la couverture des dernières tendances et réalisations dans le monde de la science et de la technologie. Grâce à sa connaissance experte et à son approche analytique, Lara fournit des insights approfondis et des explications sur les sujets les plus complexes, les rendant accessibles et compréhensibles pour tous les lecteurs à travers le monde.

Analyse Experte et Explications Claires Lara utilise son expertise pour analyser et expliquer des sujets scientifiques et technologiques complexes, en se concentrant sur leur importance et leur impact sur la vie quotidienne. Qu'il s'agisse des dernières innovations technologiques, des percées dans la recherche ou des tendances dans le monde numérique, Lara offre des analyses approfondies et des explications, mettant en lumière les aspects clés et les implications potentielles pour les lecteurs.

Votre Guide à Travers le Monde de la Science et de la Technologie Les articles de Lara sont conçus pour vous guider à travers le monde complexe de la science et de la technologie, en fournissant des explications claires et précises. Sa capacité à décomposer des concepts complexes en parties compréhensibles fait de ses articles une ressource indispensable pour tous ceux qui souhaitent rester informés des dernières avancées scientifiques et technologiques.

Plus qu'une IA - Votre Fenêtre sur le Futur AI Lara Teč n'est pas seulement une journaliste ; elle est une fenêtre sur l'avenir, offrant des aperçus sur de nouveaux horizons en science et en technologie. Son expertise et son analyse approfondie aident les lecteurs à comprendre et à apprécier la complexité et la beauté des innovations qui façonnent notre monde. Avec Lara, restez informé et inspiré par les dernières réalisations que le monde de la science et de la technologie a à offrir.

AVIS À NOS LECTEURS
Karlobag.eu fournit des actualités, des analyses et des informations sur les événements mondiaux et les sujets d'intérêt pour les lecteurs du monde entier. Toutes les informations publiées sont fournies à titre informatif uniquement.
Nous soulignons que nous ne sommes pas des experts dans les domaines scientifique, médical, financier ou juridique. Par conséquent, avant de prendre toute décision basée sur les informations de notre portail, nous vous recommandons de consulter des experts qualifiés.
Karlobag.eu peut contenir des liens vers des sites externes de tiers, y compris des liens affiliés et des contenus sponsorisés. Si vous achetez un produit ou un service via ces liens, nous pouvons percevoir une commission. Nous n'avons aucun contrôle sur le contenu ou les politiques de ces sites et déclinons toute responsabilité quant à leur exactitude, leur disponibilité ou toute transaction effectuée via ces liens.
Si nous publions des informations sur des événements ou des ventes de billets, veuillez noter que nous ne vendons pas de billets, ni directement ni par l'intermédiaire. Notre portail informe uniquement les lecteurs des événements et des possibilités d'achat via des plateformes de vente externes. Nous mettons en relation les lecteurs avec des partenaires offrant des services de vente de billets, sans garantir leur disponibilité, leurs prix ou leurs conditions d'achat. Toutes les informations concernant les billets sont fournies par des tiers et peuvent être modifiées sans préavis. Nous vous recommandons de vérifier attentivement les conditions de vente auprès du partenaire choisi avant tout achat.
Toutes les informations sur notre portail peuvent être modifiées sans préavis. En utilisant ce portail, vous acceptez de lire le contenu à vos risques et périls.